Contrastando Paradigmas de Utilização de Dados: O Espectro de Etiquetagem
O sucesso na implantação de modelos de aprendizado de máquina depende criticamente da disponibilidade, qualidade e custo dos dados etiquetados. Em ambientes onde a anotação humana é cara, inviável ou altamente especializada, os paradigmas tradicionais tornam-se ineficientes ou falham completamente. Apresentamos o espectro de etiquetagem, distinguindo três abordagens principais com base em como utilizam as informações:Aprendizado Supervisionado (AS), Aprendizado Não Supervisionado (ANS), e Aprendizado Semi-Supervisionado (ASS).
1. Aprendizado Supervisionado (AS): Alta Fidelidade, Alto Custo
O AS opera em conjuntos de dados onde cada entrada $X$ é explicitamente associada a uma etiqueta verdadeira conhecida $Y$. Embora esta abordagem geralmente alcance a maior precisão preditiva para tarefas de classificação ou regressão, sua dependência de rótulos densos e de alta qualidade é intensiva em recursos. O desempenho degrada drasticamente se os exemplos rotulados forem escassos, tornando este paradigma frágil e frequentemente economicamente insustentável para conjuntos de dados massivos e em evolução.
2. Aprendizado Não Supervisionado (ANS): Descoberta de Estruturas Ocultas
O ANS opera exclusivamente com dados não rotulados, $D = \{X_1, X_2, ..., X_n\}$. Seu objetivo é inferir estruturas intrínsecas, distribuições de probabilidade subjacentes, densidades ou representações significativas dentro do manifold dos dados. Aplicações-chave incluem agrupamento, aprendizado de manifold e aprendizado de representações. O ANS é altamente eficaz para pré-processamento e engenharia de características, fornecendo insights valiosos sem depender de entrada humana externa.
Dado: $D_L$: Dados Rotulados. $D_U$: Dados Não Rotulados. $\mathcal{L}_{SL}$: Função de Perda Supervisionada. $\mathcal{L}_{Consistência}$: Perda que impõe suavidade nas previsões sobre $D_U$.
A forma conceitual da perda total do ASS é uma soma ponderada dos dois componentes: $\mathcal{L}_{SSL} = \mathcal{L}_{SL}(D_L) + \lambda \cdot \mathcal{L}_{Consistência}(D_U)$. O escalar $\lambda$ controla o trade-off entre fidelidade dos rótulos e dependência da estrutura.